Celem tego raportu jest zbadanie, które atrybuty dostarczonego zbioru danych mają największy wpływ na ilość wyprodukowanej energii przez panele fotowoltaiczne. Taka analiza, może usprawnić gospodarowanie energią np. w zależności od pory roku, lub godzin w trakcie dnia. Z przeprowadzonych badań wynika, że najważniejszymi atrybutami są nasłonecznienie, zachmurzenie i wilgotność.
Dostarczony zbiór danych zawiera 235790 obserwacji oraz 50 atrybutów.
| Statistic | N | Mean | St. Dev. | Min | Max |
| idsito | 235,790 | 0.215 | 0.133 | 0.000 | 0.425 |
| idmodel | 235,790 | 0.243 | 0.172 | 0.000 | 0.750 |
| idbrand | 235,790 | 0.152 | 0.119 | 0.000 | 0.417 |
| lat | 235,790 | 0.450 | 0.038 | 0.415 | 0.553 |
| lon | 235,790 | 0.571 | 0.152 | 0.154 | 0.691 |
| ageinmonths | 235,790 | 0.314 | 0.378 | 0.000 | 1.000 |
| anno | 235,790 | 2,012.500 | 0.500 | 2,012 | 2,013 |
| day | 235,790 | 0.481 | 0.276 | 0.000 | 1.000 |
| ora | 235,790 | 0.500 | 0.304 | 0.000 | 1.000 |
| temperatura_ambiente | 235,790 | 0.373 | 0.172 | 0.045 | 0.818 |
| irradiamento | 235,790 | 0.109 | 0.134 | 0.000 | 0.710 |
| pressure | 235,790 | 0.650 | 0.258 | 0.000 | 0.769 |
| windspeed | 235,790 | 0.076 | 0.050 | 0.000 | 0.696 |
| humidity | 235,790 | 0.684 | 0.182 | 0.160 | 1.000 |
| icon | 235,790 | 0.462 | 0.308 | 0.000 | 0.750 |
| dewpoint | 235,790 | 0.606 | 0.096 | 0.139 | 0.865 |
| windbearing | 235,790 | 0.451 | 0.230 | 0.000 | 0.769 |
| cloudcover | 235,790 | 0.359 | 0.260 | 0.000 | 1.000 |
| tempi | 235,790 | 0.122 | 0.063 | 0.009 | 0.983 |
| irri | 235,790 | 0.222 | 0.012 | 0.108 | 1.000 |
| pressurei | 235,790 | 0.0002 | 0.004 | 0.000 | 1.000 |
| windspeedi | 235,790 | 0.039 | 0.005 | 0.000 | 1.000 |
| humidityi | 235,790 | 0.064 | 0.042 | 0.034 | 0.579 |
| dewpointi | 235,790 | 0.119 | 0.013 | 0.063 | 0.415 |
| windbearingi | 235,790 | 0.345 | 0.034 | 0.000 | 1.000 |
| cloudcoveri | 235,790 | 0.206 | 0.030 | 0.000 | 1.000 |
| dist | 235,790 | 0.469 | 0.297 | 0.000 | 1.000 |
| altitude | 235,790 | 0.546 | 0.181 | 0.111 | 0.884 |
| azimuth | 235,790 | 0.455 | 0.197 | 0.128 | 0.818 |
| altitudei | 235,790 | 0.206 | 0.149 | 0.000 | 0.982 |
| azimuthi | 235,790 | 0.365 | 0.182 | 0.000 | 1.000 |
| pcnm1 | 235,790 | 0.422 | 0.204 | 0.000 | 1.000 |
| pcnm2 | 235,790 | 0.354 | 0.214 | 0.000 | 0.972 |
| pcnm3 | 235,790 | 0.604 | 0.217 | 0.000 | 1.000 |
| pcnm4 | 235,790 | 0.519 | 0.256 | 0.000 | 1.000 |
| pcnm5 | 235,790 | 0.416 | 0.250 | 0.000 | 1.000 |
| pcnm6 | 235,790 | 0.494 | 0.239 | 0.000 | 1.000 |
| pcnm7 | 235,790 | 0.114 | 0.225 | 0.000 | 1.000 |
| pcnm8 | 235,790 | 0.403 | 0.264 | 0.000 | 1.000 |
| pcnm9 | 235,790 | 0.537 | 0.262 | 0.000 | 1.000 |
| pcnm10 | 235,790 | 0.628 | 0.212 | 0.000 | 1.000 |
| pcnm11 | 235,790 | 0.324 | 0.207 | 0.000 | 1.000 |
| pcnm12 | 235,790 | 0.757 | 0.229 | 0.000 | 1.000 |
| pcnm13 | 235,790 | 0.650 | 0.200 | 0.137 | 1.000 |
| pcnm14 | 235,790 | 0.489 | 0.184 | 0.000 | 1.000 |
| pcnm15 | 235,790 | 0.571 | 0.205 | 0.000 | 1.000 |
| irr_pvgis_mod | 235,790 | 0.177 | 0.221 | 0.000 | 1.000 |
| irri_pvgis_mod | 235,790 | 0.197 | 0.053 | -0.025 | 1.006 |
| kwh | 235,790 | 0.169 | 0.211 | 0.000 | 1.000 |
Atrybuty z powyższej tabeli można podzielić na sześć grup:
## $kwh
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0490 0.1688 0.3320 1.0000
Analizując wykres można zauważyć, że czujnik nr 10 wykazuje znacząco wyższą produkcję od pozostałych w 2012. Prawdopodobnie błędny odczyt. Czujniki ulegają awarii, miejsca awarii to gwałtowne spadki wyprodukowanej energii do 0, gdy pozostałe czujniki utrzymują wyższe wartości.
Podczas analizy okazało się, że zbiór zawiera błędy:
1. 34 daty zostały źle zapisane po konwersji na POSIXct, usunięte ze względu na małą liczbę obserwacji.
2. zerowa energia przy nie zerowym nasłonecznieniu, takie wartości zostały poprawione przy użyciu średniej wartośći energii z danej godziny w tygodniu wystąpienia.
3. niezerowa energia przy zerowym nasłonecznieniu, poprawione za pomocą średniego nasłonecznienia z danej godziny w tygodniu wystąpienia.
Na podstawie powyższego wykresu można zauważyć ze moc elektrowni(kwh) jest silnie dodatnio skorelowana z nasłonecznieniem. Jest to jak najbardziej logiczne, im więcej światła słonecznego tym więcej energii panele słoneczne są w stanie wyprodukować. Wilgotność jest negatywnie skorelowana z nasłonecznieniem i mocą elektrowni - zachmurzenie i opady deszczu ograniczają ilość światła doceriającego do ogniw fotowoltaicznych.
Przed stworzeniem modelu regresji, usunięto ze zbioru danych obserwacje wadliwych czujników, aby wyniki były jak najdokładniejsze. Stworzono 3 modele za pomocą następujących algorytmów (nazwa: błąd średniokwadratowy):
* Linear Regression (lm): 0.108703
* Linear Regression with Forward Selection (leapForward): 0.1191402
* Least angle regression (lars): 0.1087247
## lm variable importance
##
## only 20 most important variables shown (out of 93)
##
## Overall
## irradiamento 100.000
## humidity 43.393
## anno 21.142
## altitudei 19.758
## azimuthi 18.945
## cloudcover 16.474
## altitude 16.288
## azimuth 15.986
## irri_pvgis_mod 13.491
## irri 10.893
## dewpoint 9.811
## day 8.061
## week52 6.160
## week51 6.050
## week50 6.048
## week49 5.975
## week46 5.622
## week53 5.580
## week48 5.565
## week39 5.442
Model regresji potwierdził, że najbardziej istotnym atrybutem jest nasłonecznienie, następnie wilgotność. Co ciekawe wśród mniej istotnych atrybutów, które mogę mieć wpływ na produkcję energii (azymut, zachmurzenie) znalazł się atrybut rok. Dalej wymienione atrybuty są znacznie mniej istotne w predykcji wyprodukowanej energii.